有機搜索已成為我們日常生活中不可或缺的一部分。最近的數據顯示,近30% 的全球網絡流量來自在線搜索。?搜索引擎每天抓取和索引數十億的網絡內容,根據相關性(它們與搜索查詢的相關程度)在搜索結果中對它們進行排名,從而使它們可供公眾使用。您可以使用 robot.txt 文件設置有關您希望搜索引擎如何抓取和向公眾顯示您的 Web 內容的指令。本文將向您介紹您需要了解的有關 robots.txt 文件的所有信息。
了解 Robot.txt 文件
搜索索引從簡單的搜索引擎抓取開始。robots.txt 文件,也稱為Robots Exclusion Protocol?,指示搜索機器人抓取網站——去哪里和不去哪里。用戶經常使用該文件來指定搜索引擎不應抓取的頁面。
當搜索引擎通過鏈接或站點地圖發現網站時,它會打開網站的 robots.txt 文件以了解要抓取的頁面和不應該抓取的頁面。爬蟲會緩存 robots.txt 文件,以免每次訪問網站時打開它。緩存文件每次自動刷新數次,定期保持更新。
robots.txt 區分大小寫并位于域的根目錄下,例如www.domain.com/robots.txt。
為什么 Robots.txt 文件很重要
為您的網站創建一個 robot.txt 文件有很多好處;例如,您可以使用它來管理您的抓取預算。搜索蜘蛛通常有預定數量的可以在網站上抓取的頁面或在網站上花費的時間。如果您管理一個擁有數千個頁面的網站,您可以阻止不重要的頁面以最大化抓取預算。
使用 robots.txt 文件的其他好處包括:
- 它可以幫助網絡管理員控制搜索引擎可以訪問的網頁。
- 該文件使用戶可以完全自由地阻止特定機器??人抓取他們的網站。
- 該文件有助于防止敏感內容被編入索引。
- 您可以使用它來阻止索引不必要的文件,例如圖像、PDF 和視頻。
使用 Robots.txt 文件提高可抓取性
現在,如何使用 robots.txt 文件提高網站的可抓取性?當然,讓我們找出答案。
Robots.txt 語法
機器人文件包含一個或多個搜索引擎指令塊,第一行指定用戶代理——您向其提供爬行指令的搜索蜘蛛的名稱。
基本的 robots.txt 文件如下所示:
站點地圖:https://yourdomain.com/sitemap_index.xml
用戶代理: *
不允許:/*?comments=all
不允許:/wp-content/themes/user/js/script-comments.js
不允許:/wp-comments-post.php
不允許:/go/
用戶代理:Googlebot
不允許:/登錄
用戶代理:bingbot
不允許:/照片
上面的 robots.txt 文件包含三個指令塊——第一個指令是針對所有用戶代理的,第二個指令是針對Google 爬蟲的,第三個是針對 Bing 機器人的。
以下是這些術語的含義:
- Sitemap指定了網站站點地圖的位置,它列出了一個網站中的所有頁面,方便爬蟲查找和爬取。您還可以將站點地圖放在 robots.txt 文件的末尾。
- 如前所述,用戶代理指的是您希望向其發送指令的搜索機器人。使用星號 (*) 通配符將指令分配給所有用戶代理,但您可以使用正確的名稱指定用戶代理。
- Disallow指示用戶代理不抓取指定的 URL。您可以將該行留空以指定您不允許任何內容。
Allow指令指示機器人抓取指定的URL,即使先前的指令不允許其目錄,下面是一個示例。
用戶代理: *
不允許:/wp-admin/
允許:/wp-admin/admin-ajax.php
robots.txt 文件阻止了wp-admin目錄,該目錄包含敏感的 WordPress 文件,包括插件和主題,但允許蜘蛛爬行和索引目錄中的admin-ajax.php文件。
crawl-delay指令 (?crawl-delay: 10 ) 告訴用戶代理在抓取頁面之前等待指定的秒數(例如,十秒)。
該指令告訴搜索引擎更改抓取頁面的頻率,從而幫助您節省帶寬。不幸的是,Google 不再識別該指令,但 yahoo 和 Bing 仍然識別。
用戶代理指令
大多數搜索引擎都有不同的爬蟲用于不同的目的。例如,一些搜索引擎有用于正常索引、圖像和視頻的蜘蛛,而像 Bing 這樣的一些搜索引擎甚至有用于他們的廣告程序的蜘蛛。
因此,我們按字母順序整理了一張目前可用的所有常見用戶代理的表格。
讓我們來看看。
序列號 | 搜索引擎 | 機器人類型 | 用戶代理 |
1 | 百度 | 一般索引 | 百度蜘蛛 |
2 | 百度 | 圖片 | 百度蜘蛛圖片 |
3 | 百度 | 移動索引 | baiduspider-mobile |
4 | 百度 | 消息 | 百度蜘蛛新聞 |
5 | 百度 | 影片 | 百度蜘蛛視頻 |
6 | Bing | 一般的 | 冰棒 |
7 | Bing | 一般的 | 微信機器人 |
8 | Bing | 圖片和視頻 | 微軟媒體 |
9 | Bing | 廣告 | adidxbot |
10 | 谷歌 | 一般的 | 谷歌機器人 |
11 | 谷歌 | 圖片 | Googlebot 圖片 |
12 | 谷歌 | 移動的 | Googlebot-移動版 |
13 | 谷歌 | 消息 | Googlebot-新聞 |
14 | 谷歌 | 視頻 | Googlebot-視頻 |
15 | 谷歌 | AdSense | Mediapartners-谷歌 |
16 | 谷歌 | 廣告 | AdsBot - 谷歌 |
17 | 雅虎 | 一般的 | 啜飲 |
18 | Yandex | 一般的 | yandex |
用戶代理區分大小寫,因此在設置 robots.txt 文件時請正確使用名稱。
設置抓取指令
讓我們探討一些可以使用 robots.txt 文件無縫抓取網站的方法。
抓取整個網站
您可以設置 robots.txt 文件以允許所有搜索機器人對您的整個網站進行爬網和索引。如果您的網站上有私人或敏感文件,我們不建議這樣做。
但是,要提供此指令,請將以下行添加到您的 robots.txt 文件中。
用戶代理: *
不允許:
但是如果你希望只允許選定的蜘蛛爬行和索引整個網站,那么指定用戶代理,當然,每個用戶代理一個指令塊。
阻止整個網站
為防止搜索引擎抓取您的網站并將其編入索引,尤其是在您重新設計網站時,您可以阻止整個網站被編入索引。??將此指令添加到您的 robots.txt 文件以完成它。
用戶代理: *
不允許: /
為防止機器人抓取您的網站,請指定用戶代理。
阻止選定的部分
要阻止網站的特定部分,請為文件夾或頁面設置禁止指令,這是一個示例。
用戶代理: *
不允許:/視頻
該指令阻止所有蜘蛛抓取視頻目錄及其中的所有內容。您還可以使用通配符 (*) 和 ($) 等正則表達式來阻止文件組。不幸的是,大多數搜索引擎不識別后者,包括谷歌。
但是這里介紹如何使用正則表達式來阻止一組文件。
不允許:圖片/*.jpg
不允許:/*php?$
通配符 (*) 阻止圖像目錄中文件名中包含.jpg的文件,而 ($) 阻止所有以.php結尾的文件。
請注意,disallow、allow 和 user-agent 值區分大小寫。在我們上面的兩個例子中,搜索蜘蛛將阻止:
- ?視頻目錄,但不會阻止/videos
- /images/beach.jpg但會抓取/images/beach.JPG
Robot.txt 文件對比。無索引標簽
robots.txt 文件指示蜘蛛不要抓取頁面,但如果許多網站鏈接它,可能不會阻止搜索引擎索引該頁面。如果搜索引擎發現足夠多的指向該頁面的外部鏈接,它會在不知道其內容的情況下對該頁面進行索引,從而為您提供如下所示的搜索結果:
但是您可以將Noindex 指令添加到您的 robots.txt 文件中,以防止這些文件出現在搜索結果中。
用戶代理: *
不允許:/視頻
無索引:/視頻
您還可以將 meta robots?noindex標記添加到頁面的標題中,以可靠地防止搜索引擎對其進行索引。如果您使用此選項,請避免阻止帶有 robots.txt 的頁面以使蜘蛛程序能夠找到標簽。
生成 Robot.txt 文件
您可以使用一些直觀的在線工具為您的網站生成一個 robots.txt 文件,這里只有五個:
- 早上的 Robots.txt 生成器
- SureOak Robots.txt 文件生成器
- SEOptimer 免費 Robots.txt 生成器
- SEO PowerSuite Robots.txt 生成器工具
- SEOBook Robots.txt 文件生成器
將 Robots.txt 文件添加到您的域
您可以通過帳戶控制面板將新創建的 robots.txt 添加到您的域,方法如下。
第 1 步:訪問您的帳戶控制面板
通過登錄 SPanel 訪問您帳戶的控制面板。訪問www.domain.com/spanel/login?,將domain.com替換為您的域名。
輸入您的登錄憑據以登錄。
如果您以管理員身份登錄,則 SPanel 會將?您帶到您的管理儀表板,但用戶訪問會將您登錄到控制面板。在管理儀表板上,滾動到QUICK LINKS并單擊List Accounts?。
單擊您希望訪問其控制面板的帳戶的“操作”按鈕,然后從上拉菜單中選擇“登錄”以獲取訪問權限。
第 2 步:打開文件管理器
在控制面板上,單擊文件部分下的文件管理器。
打開您網站的基本目錄或根目錄。根域使用public_html文件夾作為其根目錄。
第 3 步:創建 Robots.txt 文件
在根目錄中,單擊新建文件/文件夾圖標并選擇新建文件。
將新文件命名為robots.txt不帶大寫,然后單擊確定保存
編寫您的爬網指令或將它們復制并粘貼到空白文件中并保存。
而已。
把它包起來
當您發布 robots.txt 文件時,請使用Google robots.txt 測試器工具來驗證抓取指令,以確保您不會錯誤地禁止您不打算阻止的頁面。